Obiettivi di Apprendimento
- Configurare e verificare un ambiente di sviluppo GPU pronto per la produzione utilizzando CUDA e ROCm.
- Eseguire il profiling a livello di sistema per mappare i tempi di esecuzione dei kernel e l'utilizzo delle risorse.
- Distinguere tra kernel limitati dal calcolo e quelli limitati dalla memoria utilizzando metriche e modelli roofline.
- Diagnosare e mitigare il sovraccarico degli scambi dati PCIe e la latenza tra host e dispositivo.